Последние новости (AMD)

Жаркие споры на любые темы. ТОЛЬКО ДЛЯ ЗАРЕГИСТРИРОВАННЫХ ПОЛЬЗОВАТЕЛЕЙ!

Модератор: ЭЛЕКТРОН

Правила форума
Форум "Бои без правил" является слабомодерируемым. Участие в обсуждениях на данном форуме осуществляется участниками форума на свой страх и риск!
Администрация форума оставляет за собой право модерировать форум в случае нарушения участниками форума законодательства РФ. Администрация форума не несет ответственности за сообщения, оставляемыми участниками форума.
В дополнение к общим правилам форума на форуме "Бои без правил" имеются следующие ограничения:
На форуме "Бои без правил" категорически запрещены оскорбления участников конференции, не участвующих в обсуждениях на форуме "Бои без правил". Такие сообщения будут удаляться, а нарушители будут наказаны.
На форуме "Бои без правил" запрещено обсуждение действий модераторов и администрации форума.
На форуме "Бои без правил" запрещены ссылки на сайты содержащие порнографию или размещение в сообщениях фотографий понографического содержания.
На форуме "Бои без правил" запрещено разжигание межнациональной розни.
На форуме "Бои без правил" запрещено использование мата в следующих случаях:
- в бесмысленных сообщениях, содержащих только мат;
- с целью оскорбления других участников.
Автор
Сообщение
Trump

 

Re: Последние новости (AMD)

Сообщение Trump » 12 апр 2011, 15:41

xxl_izh
интел фанбои забывают, что Ivy по-началу будет выпускаться в относительно небольших количествах(возможно даже будет только макс. 2х ядерник - как это было с кларками, когда обкатывали 32нм...)

Откуда инфа? :spy:

и основное преимущество от 22 нм пойдет на форсирование(увеличение) графической составляющей, т.к. с Llano в этом плане Sandy будет очень тяжело тягаться ...

В ноутах?

Аватара пользователя
xxl_izh
Овер
 
Сообщения: 2039
Зарегистрирован:
08 янв 2010, 08:37
Благодарил (а): 0 раз.
Поблагодарили: 6 раз.
Блог: Просмотр блога (0)

Сообщение xxl_izh » 12 апр 2011, 15:43

Trump писал(а):В ноутах?

не только...

kvaga
Истинный Фанат
Истинный Фанат
 
Сообщения: 3076
Зарегистрирован:
01 июл 2010, 01:40
Благодарил (а): 70 раз.
Поблагодарили: 108 раз.
Блог: Просмотр блога (0)

Сообщение kvaga » 12 апр 2011, 17:26

xxl_izh писал(а):пока что вижу как ты из штанов выпригиваешь доказывая что A>B, причем ты знаешь только чему равно A.

В в данном случае складывается из других известных переменных, если для тебя это сложно и ты привык решать только простецкие задачи, то можешь совсем не писать :mega_lol:
RainMan писал(а):Изящная формулировка!!!

Только для тупых фанатиков типа тебя ;)

Добавлено через 2 минуты 11 секунд:
xxl_izh писал(а):
Trump писал(а):В ноутах?

не только...

:insane: Опять про встроенные видяшки взялись. :mega_lol: АМуДа уже реально показала на что она способна
#426
:tooth:
Как мне известно у штеуда по плану выпуск Экстримального сенди в декабре под LGA 2011 сокет, а потом в конце марта - начале апреля выпуск иви на LGA 2011 платформе. 20 июн 2011, 18:58 (с) Сателит

Trump

 

Сообщение Trump » 12 апр 2011, 18:31

Будущие процессоры AMD (часть 2)
MoroseTroll
Прошу прощения, если кого-то ввёл в заблуждение насчёт снижения скорости работы с памятью в Бульдозере. Лучше я приведу цитату:
цитата:
The following performance caveats apply when using streaming stores on AMD Family 15h cores.
• When writing out a single stream of data sequentially, performance of AMD Family 15h processors is comparable to previous generations of AMD processors.
• When writing out two streams of data, AMD Family 15h version 1 processors can be up to three times slower than previous-generation AMD processors. AMD Family 15h version 2 processor performance is approximately 1.5 times slower than previous AMD processors.
• When writing out four non-temporal streams, AMD Family 15h version 1 can be up to three times slower than previous AMD processors. AMD Family 15h version 2 processor performance is comparable to previous AMD processors.
• Using non-temporal stores but not writing out an entire cacheline may cause performance to be up
to six times slower than previous AMD processors.


Как видите, речь шла лишь о потоковой записи.

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 12 апр 2011, 19:35

kvaga писал(а):
xxl_izh писал(а):пока что вижу как ты из штанов выпригиваешь доказывая что A>B, причем ты знаешь только чему равно A.

В в данном случае складывается из других известных переменных, если для тебя это сложно и ты привык решать только простецкие задачи, то можешь совсем не писать :mega_lol:
RainMan писал(а):Изящная формулировка!!!

Только для тупых фанатиков типа тебя ;)

Добавлено через 2 минуты 11 секунд:
xxl_izh писал(а):
Trump писал(а):В ноутах?

не только...

:insane: Опять про встроенные видяшки взялись. :mega_lol: АМуДа уже реально показала на что она способна
#426
:tooth:


А на хера твое кодирование нужно на ноуте который предназначен для работы? Я вот сегодня сравнивал работу фьюжена с другими ноутами все на базе процессоров интел. Некоторые были заметно тормознее. У меня есть рабочий фьюжен.

Добавлено через 1 минуту 20 секунд:
Странички веб быстро открываются. Все проги открываются быстро. Мне фиолетово , на скорость кодирования. Он не предназначен для этого.
Трактор с велосипедом сравнивать.

Добавлено через 1 минуту 16 секунд:
Есть определенное назначение товара и его потребительские свойства. К примеру есть вила и лопата. Есть просто телефоны, есть смартфоны есть двухсимочные. У всех функционал разный. Если человеку кроме как звонить ничего не надо, то нах ему все эти прибабахи?

Добавлено через 2 минуты 24 секунды:
Trump писал(а):Будущие процессоры AMD (часть 2)
MoroseTroll
Прошу прощения, если кого-то ввёл в заблуждение насчёт снижения скорости работы с памятью в Бульдозере. Лучше я приведу цитату:
цитата:
The following performance caveats apply when using streaming stores on AMD Family 15h cores.
• When writing out a single stream of data sequentially, performance of AMD Family 15h processors is comparable to previous generations of AMD processors.
• When writing out two streams of data, AMD Family 15h version 1 processors can be up to three times slower than previous-generation AMD processors. AMD Family 15h version 2 processor performance is approximately 1.5 times slower than previous AMD processors.
• When writing out four non-temporal streams, AMD Family 15h version 1 can be up to three times slower than previous AMD processors. AMD Family 15h version 2 processor performance is comparable to previous AMD processors.
• Using non-temporal stores but not writing out an entire cacheline may cause performance to be up
to six times slower than previous AMD processors.


Как видите, речь шла лишь о потоковой записи.


И че кто такой мауз троль? Чем он хуже нас? Он тоже что и мы читает. Умные мысли? А с х..я ли они умные будут если человек не понимает сути дела?

Добавлено через 1 минуту 59 секунд:
Это просто параметры не более того. Написать можно что угодно и как угодно, главное результат. Никто не будет говорить все что у них там.
Там работает служба безопастности, все подписывают документы о не разглошении комерческой тайны.

Добавлено через 47 секунд:
Как можно обсуждать товар которого нету нигде а если и есть где то то протопипы первые.

Добавлено через 20 секунд:
которые просто отдали потестить. Да пустить пыль в глаза.

Добавлено через 41 секунду:
Если вспомнить выход у амд 4 серии радеонов, то амд заверяло о быстроте, мы ее и получили. Но до выпуска информации никакой не было.

Добавлено через 1 минуту 35 секунд:
У компании работают инженеры у них у всех план. Они работают с учетом программы.

Добавлено через 2 минуты 34 секунды:
Будущее как раз за гетерогенными процессорами, которые смогут выполнять любые команды.

Добавлено через 55 секунд:
Я хочу сказать фьюжен оправдывает себя. Я доволен ноутом.

Добавлено через 1 минуту 51 секунду:
ЛЛано должен быть еще лучше.

Добавлено через 20 минут 31 секунду:
Не понимаю смыл некоторым обсуждать то что они никогда не купят и юзать не будут :lol:

Добавлено через 1 минуту 32 секунды:
Возмите любой вид деятельности. Езда на авто. Ну что по дорогам нашим мало придурков ездиет. Возьмите мотоциклы, там тоже есть придурки. Возьмите велосипед там тоже есть кто готов голову пробить. А зачем это все нормальному человеку. Тот же разгон?

Добавлено через 1 минуту 44 секунды:
Если человек считает себя умным и чего то не понимает он становится еба....тым на голову. Ему надо понять то что он не понимает, а в точности самого себя.

Добавлено через 24 минуты 53 секунды:
Я эксплуатирую амд с 2004-2005 года, до этого только присматривался. Я доволен этим железом. Я иногда охреневаю видя свои машины которые продавались 5 лет назад.

Добавлено через 1 минуту 28 секунд:
У меня щас х6 и я знаю что интел не везде быстрее, но мне этого не надо. Я счастлив что у меня амд.

Добавлено через 2 минуты 50 секунд:
Я столько продал амд, и за все машины у меня душа спокойна.

Добавлено через 58 секунд:
Я тут с клиентами заключил договор и сегодня спрашую ну че вы типа не звоните, все работет все в порядке? Они говорят да все работет. :)
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Аватара пользователя
xxl_izh
Овер
 
Сообщения: 2039
Зарегистрирован:
08 янв 2010, 08:37
Благодарил (а): 0 раз.
Поблагодарили: 6 раз.
Блог: Просмотр блога (0)

Сообщение xxl_izh » 12 апр 2011, 21:34

kvaga писал(а):В в данном случае складывается из других известных переменных

известных переменных для сотрудников АМД, а не для фанатика из Челябинска с богатым воображением ;)

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 13 апр 2011, 18:08

Из обзора бульдозера

Выборки команд и ветвящиеся значительно улучшены в бульдозер. A more sophisticated conditional branch prediction is employed, utilizing a local predictor, a global predictor and a tournament selector. Более сложные условные предсказания ветвлений работает, используя местные предиктор, глобального предиктора и турнир селектора. The branch target buffer (BTB) is increased to 2.5+ times larger. Буфер адреса перехода (BTB) увеличивается до 2,5 + раза больше.

Note that although a single frontend serves two cores, the same branch prediction information can be shared by both cores if they execute the same program. Заметим, что хотя один интерфейс служит двумя ядрами, ту же информацию предсказания ветвлений может использоваться оба ядра, если они выполняют ту же программу. Even if the two cores run different programs, sharing the same instruction fetch and branch prediction resources can have benefit in latency hiding, especially for non-optimized and densely branching codes. Даже если два ядра выполнения различных программ, обмен же выборки команд и предсказания ветвлений ресурсов может быть выгода в латентность скрывается, особенно для не оптимизированы и густо ветвящиеся кодов.
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Trump

 

Сообщение Trump » 13 апр 2011, 18:09

Opteron 2xxx
Из обзора бульдозера

Ссылочку на "обзор" можно полюбопытствовать?

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 13 апр 2011, 18:09

Когда звезды выравнивания (инструкция распределения оптимизирован и код предварительного декодирования информации), интерфейс может декодировать до 4 макро-OPS с 32-байт окна за цикл для одного ядра. Otherwise, a 16-byte window is scanned to find the boundaries for supposedly < 4 decodes per cycle. В противном случае, 16-байт окне сканируется, чтобы найти границы якобы <4 декодирует за цикл. It is unclear whether in such cases one 16-byte window can be scanned for each core, thus still maintaining 32-byte decode (for both cores) per cycle. Неясно, будет ли в таких случаях один 16-байт окно может быть проверено на каждое ядро, таким образом, сохраняя 32-байт декодирования (для обоих ядер) за цикл. Note that it takes at least 2x time to scan a instruction window twice as large, but two instruction windows of same size can always be scanned concurrently by parallel resources, if available. Обратите внимание, что требуется по крайней мере 2x время сканирования инструкции окна в два раза больше, но две инструкции окна одинакового размера всегда может быть отсканированы одновременно параллельными ресурсов, если таковые имеются.

The branch fusion seems similar to Intel's macro-op fusion. Отделение слияния кажется похожие на ОП слияния Intel, макро-. It has limited applicability but would make Bulldozer more competitive for running Intel-optimized codes. Он имеет ограниченное применение, но сделает более конкурентоспособными Бульдозер для работы с процессорами Intel оптимизирован код.

Добавлено через 22 секунды:
http://translate.google.ru/translate?hl ... rmd%3Divns
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Opium

 

Сообщение Opium » 13 апр 2011, 18:10

Когда ЭТОТ Чудо-трактор уже появится??? :bandhead:

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 13 апр 2011, 18:11

Основные моменты на выполнение трубопроводов:

•4-way microarchitecture design 4-полосная микроархитектуры дизайн
•Integer core has two EX and two AGLU pipelines, plus an LSU ( 2.10.2 ) Целое ядро имеет два EX и два AGLU трубопроводов, а также ЛГУ (2.10.2)
•Floating-point unit (FPU) has two FMAC and two IMMX pipelines ( 2.11 ) С плавающей точкой (FPU) имеет два FMAC и два IMMX трубопроводов (2,11)
Up to 4 macro-op s per clock cycle can be issued from the (shared) frontend to either of the two cores. До 4 макро-OP S за один такт может быть выдан из (совместно) интерфейс к одной из двух ядер. Within each core, up to 4 macro-ops per clock cycle can be sent to an integer or the floating-point scheduler. В рамках каждого ядра, до 4 макро-ОПС за один такт могут быть отправлены на целое или с плавающей точкой планировщик.

The integer scheduler can dispatch up to 4 micro-op s per cycle, one to each of the 4 pipelines. Целое планировщик может отправлять до 4 микрокоманду S за такт, по одному для каждой из 4 конвейера. Almost all ALU operations are handled by the 2 EX pipelines, except some LEA instructions which also utilize AGU. Почти все АЛУ операции обрабатываются 2 конвейера EX, за исключением некоторых инструкции LEA которые также используют АГУ. Thus the integer core can execute only up to 2 x86 instructions per clock cycle, resulting in a maximum integer IPC of 2.0 (in units of x86 instructions). Таким образом целое ядро может выполнять только до 2 x86 инструкций за такт, в результате чего максимальное целое число, МПК 2,0 (в единицах инструкций x86). Note however this estimate does not include the computing throughput of the integer SIMD pipelines in the FPU. Заметим, однако, эта оценка не включает в себя вычислительные пропускная способность целого SIMD трубопроводов в ППУ.

The FPU scheduler can dispatch up to four 128-bit operations with the following combinations: (1) any of {FMUL, FADD, FMAC, FCVT, IMAC}; and (2) any of {FMUL, FADD, FMAC, Shuffle, Permute}; and (3) any of {AVX, MMX, ISSE}; and (4) any of {AVX, MMX, ISSE, FSTORE}. ФПУ планировщик может отправлять до четырех 128-разрядных операций с следующие комбинации: (1) любой из {FMUL, FADD, FMAC, FCVT, ИАЦ}, и (2) любой из {FMUL, FADD, FMAC, Shuffle, Переставим }, и (3) любой из {AVX, MMX, ISSE}; и (4) любой из {AVX, MMX, ISSE, FSTORE}.

From a layman's viewpoint, the shared FPU seems to offer only half the throughput of two K10 cores for independent FMUL and FADD operations. С точки зрения непрофессионала, общий FPU, кажется, предлагает только половину пропускной способности двух ядер K10 для независимых FMUL и FADD операций. However, in previous Opteron, vectorized loads and stores also share the FMUL and FADD pipelines; in Bulldozer, vectorized loads are either "free" or handled by the IMMX pipelines. Тем не менее, в предыдущие Opteron, векторизация нагрузки и магазины также доля FMUL и FADD трубопроводов; в Бульдозер, векторизация нагрузки либо "бесплатно" или обрабатываются трубопроводов IMMX. Note that when FPU is throughput bottleneck , each arithmetic operation should be paired with on average one load or store . Заметим, что при ФПУ является пропускная способность узкого места, каждая арифметическая операция должна быть в паре с в среднем один нагрузки или магазин. A perhaps more significant overhead saving comes from various vectorized register moves which can now be dispatched concurrently to separate IMMX pipelines. Возможно, более значительные накладные расходы экономии поступают из различных векторизация движется регистра, который теперь будет направлен одновременно на отдельных трубопроводов IMMX. Thus the shared FPU in Bulldozer is actually a very balanced design. Таким образом общий FPU в Бульдозер на самом деле очень сбалансированный дизайн.

The per-integer core load-store unit (LSU) acts as a backend for the integer core and the shared FPU pipelines. За целое основные нагрузки магазине (LSU) действует в качестве бэкэнда к основной целым и общим трубопроводов ФПУ. It has a 40-entry load queue and a 24-entry store queue supporting two 128-bit loads and one 128-bit store per cycle. Он имеет 40-очереди вступления нагрузки и 24-магазине вступления очередь оказывает поддержку двум 128-битным нагрузки и одного 128-битного магазин за цикл. There is also an FPU load-store unit talking to the LSUs in both integer cores. Существует также FPU нагрузки хранить единицу говорить с LSUs и как целое число ядер.

Changes to L1 data cache: ( 2.5.2 ) Изменения кэша L1 данных: (2.5.2)

•Size reduced from 64kB to 16kB Размер сократилось с 64 КБ до 16kB
•Associativity increased from 2-way to 4-way Ассоциативность увеличилось с 2-способ 4-х
•Number of banks increased from 8 to 16 banks Количество банков увеличилась с 8 до 16 банков
•Load-to-use latency increased from 3 to 4 cycles Нагрузка к задержкам использования увеличился с 3 до 4 циклов
•Access policy changed from write-back to write-through Доступ политика изменилась с обратной записи для записи через
The L1D cache seems to go through an almost complete overhaul in Bulldozer. Кэш L1D, кажется, идет через почти полный пересмотр в бульдозер. In previous AMD Opteron the L1D cache is virtually indexed and physically tagged; this allows the cache size to be greater than (page_size)*(associativity) without the homonym and synonym problems. В предыдущих AMD Opteron кэш L1D практически индексируются и физически отметил, что позволяет размер кэша, чтобы быть больше (page_size) * (ассоциативность) без омоним и синоним проблемы. On the other hand, this also means every cache hit must be subject to TLB hit. С другой стороны, это также означает, что каждый кэшу должен подвергаться TLB хитом.

In Bulldozer, the L1D cache size is (page_size)*(associativity) = 4kB * 4 = 16kB. В Бульдозеры, размер L1D кэш (page_size) * (ассоциативность) = 4Кб * 4 = 16 Кбайт. As such, it is possible that the L1D cache is now virtually tagged which would put the DTLB access out of the critical loop. Таким образом, вполне возможно, что кэш L1D сейчас практически отметил что поставит доступ DTLB из критического цикла. While this limits the maximum cache size to 16kB, it can offer clock rate and power advantage . Хотя это ограничивает максимальный размер кэша на 16kB, она может предложить частота и сила преимущество.

Limiting the cache size, however, does not solve the synonym problem where two cores in a Bulldozer module map different virtual address to the same physical address. Ограничение размера кэша, однако, не решает проблемы синоним где два ядра на карте Бульдозер модуль различные виртуальные адреса в тот же физический адрес. Inconsistency can occur when the two cores update contents in their (virtually tagged) data cache separately. Несоответствие может произойти, когда два ядра обновление содержания в них (практически на ярлыке) кэш данных отдельно. This problem, however, can be solved by writing through to the physically tagged shared L2D cache . Эта проблема, однако, могут быть решены в письменном виде до физически отметил общий кэш L2D.

Changes to L2 and L3 caches: Изменения в L2 и L3 кэш:

•L2 cache is now a "mostly inclusive" cache ( 2.5.3 ) L2-кэш сейчас "в основном включено" кэш (2.5.3)
•L2 cache latency increases to 18 ~ 20 cycles from previous 12 (=9+3) cycles L2-кэш задержки увеличивается до 18 ~ 20 циклов из предыдущих 12 (= 9 +3) циклов
•L3 cache is logically partitioned into sub-caches each up to 2MB ( 2.5.4 ) L3 кэш логически разбит на суб-кэшей каждого до 2 Мб (2.5.4)
The "mostly inclusive" property of the L2 cache in Bulldozer is a direct consequence of the write-through policy of the L1D cache. "В основном включено" свойство L2 кэша Бульдозер является прямым следствием записи через политику кэш L1D. Any cache line that has been modified in an L1D cache will also have a copy in the L2 cache. Любые строки кэша, который был изменен в кэш L1D будет также иметь копию в кэш-памяти L2. On the other hand, when there is L1D/L2 cache miss and L3 cache hit, a cache line is copied from L3 cache directly to L1D cache (same behavior as in K10), making the L2 cache not fully inclusive. С другой стороны, когда есть L1D/L2 кэша L3 и ударил кэш, кэш-линии копируется из кэш-памяти L3 непосредственно L1D кэша (то же поведение, как в K10), что делает кэша L2 не в полной мере включительно. Similar behavior applies to the memory prefetch instructions which copy cache lines directly to L1D. Аналогично ведет себя и памятью предварительной выборки инструкций, которые копия кэша линии непосредственно L1D. On the other hand, "cold" data are probably loaded to both L1D and L2 caches to take advantage of the sharing of L2 by both cores (different from K10), which could explain the "mostly" inclusive description to the L2 cache. С другой стороны, "холодная", вероятно, данные загружаются как L1D и L2 кэш, чтобы воспользоваться обмен L2 на обоих ядер (отличается от К10), которые могли бы объяснить "в основном" включено описание к кэш-памяти L2.

The L2 cache latency in K10 is 9 cycles beyond the (3-cycle) L1 cache access, or a total 12 cycles. Латентность L2 кэша в K10 составляет 9 циклов за пределами (3-цикла) кэша L1 доступа, или всего 12 циклов. In Bulldozer, the L2 cache latency is increased to 18 ~ 20 cycles; the greater value is probably for writes, or for L1D TLB miss. В Бульдозеры, латентность L2 кэша увеличен до 18 ~ 20 циклов; большее значение, вероятно, для записи, или для L1D TLB пропустить. The increased latency shows Bulldozer core designed more as thinner and faster (higher clock rate) than wider and shorter (higher ILP). Увеличились задержки показывает Бульдозер основных предназначен скорее как тоньше и быстрее (выше частота), чем шире и короче (выше ILP).

Other changes to memory resources (LSU, prefetch, write combining): Другие изменения в памяти ресурсов (ЛГУ, предвыборки, написать объединения):

•40-entry load queue and 24-entry store queue in LSU 40-запись очереди нагрузки и 24-магазинах очереди вступления в ЛГУ
•Hardware pretech to both L1 and L2 (prefetch instruction still to L1 only, 6.5 ) Оборудование pretech как L1 и L2 (предварительной выборки инструкций еще только L1, 6,5)
•Stride L1 prefetcher with up to 12 pretech patterns Stride L1 Prefetcher до 12 pretech моделей
•"Region" L2 prefetcher for up to 4096 streams or patterns "Регион" L2 Prefetcher до 4096 потоков или модели
•4KB 4-way WCC plus a (single?) 64-byte 4-entry WCB (?) WCB ( A.5 ) 4KB 4-х ВСЦ плюс (один?) 64-байт 4-запись WCB (?) ДСП (П.5)
The load-store unit (LSU) seems to be very similar to the one in K10. Нагрузка-магазин (LSU), кажется, очень похож на один в K10. Both utilizes two queues, one primarily for pending loads and one exclusively for pending stores. Оба использует две очереди, одна в первую очередь для нагрузки до и один исключительно для до магазинов. There have been claims that Bulldozer offers better out-of-order loads to stores than K10. Там были утверждает, что бульдозер предлагает лучшую вне порядка нагрузки в магазины, чем K10. From the high-level view, the only "major" difference related to the LSU is perhaps the use of virtual address for tagging the L1D cache in Bulldozer (?) , but physical address in K10. От уровня зрения высокой, только "основные" разницы, связанные с ЛГУ, возможно использование виртуальный адрес для мечения L1D кэша бульдозера (?), Но физический адрес в K10. Tagging L1D with virtual addresses may allow pending stores to retire sooner to L1D without being subject to any TLB miss latency, thus resolving store-to-load dependency faster. Tagging L1D с виртуальных адресов может позволить до магазинов на пенсию раньше, чтобы L1D, не подвергаясь какой-либо TLB Мисс задержки, таким образом, решения в магазине на нагрузку зависимость быстрее. Otherwise, according to Section 6.3 of the software optimization guides, the same restrictions on store-to-load forwarding apply to both Bulldozer and K10 . В противном случае, в соответствии с разделом 6,3 оптимизации руководства программного обеспечения, такие же ограничения в магазине на нагрузку пересылки применяются как бульдозер и K10.

Due to the much smaller size of L1D in Bulldozer, it is reasonable to expect hardware prefetch to be less aggressive at L1D. Из-за гораздо меньшего размера L1D в Бульдозер, разумно ожидать аппаратной предвыборки быть менее агрессивной в L1D. Instead, part of the "aggressiveness" is transferred to the large and shared L2 cache. Вместо этого, часть "агрессивности" переносится на большие и общий L2 кэш. Although less aggressive, the prefetch mechanism is much more sophisticated, keeping multiple (12) prefetch patterns active at the same time. Хотя и не столь агрессивны, предвыборки механизм является гораздо более сложным, сохраняя несколько (12) моделей предвыборки активной в то же время.

A special design in Bulldozer is the addition of a 4KB 4-way associative write coalescing cache (WCC) for aggregating write-back (WB) memory writes (before committing them to L2?) . Специальная конструкция в Бульдозер добавлением 4KB-способ ассоциативного 4 написать сливающиеся кэша (ВКК) для объединения с обратной записью (ВБ) пишет памяти (до совершения им L2?). This special "write cache" is inclusive with the L2 cache, and has its contents universally visible. Этот специальный "кэш" является включительно с кэш-памяти L2, и его содержимое универсально видно. It is unclear whether there is one WCC per core or one per module, although the former seems more plausible. Пока неясно, есть ли один ВКК на ядро ??или один на один модуль, хотя бывший кажется более правдоподобным.

One of the design goals of WCC is probably to improve inter-core data transfer . Одной из целей разработки ВКК, вероятно, улучшить общение между основной передачи данных. Previously in K10, if core1 needs to send something to core2, the cache line containing the data must be (a) modified in core1's L1D, (b) evicted from core1's L1D to its L2, then (c) transferred from core1's L2 to core2's L1D. Ранее в K10, если Core1 необходимо отправить что-то Core2, кэш строку, содержащую данные должны быть (а) изменение в Core1 в L1D, (б) выселили из Core1 в L1D его L2, то (C) переведены из Core1 в L2 в Core2's L1D. In Bulldozer, since every write to L1D also writes through to the WCC, steps (b) can be omitted and step (c) can be performed together with updating the L2 cache. В Бульдозеры, так как каждая запись в L1D также пишет до ВКК, шаги (б) может быть опущено и шаг (с) может быть выполнена вместе с обновлением кэша L2. Even less overhead is incurred if the data transfer occurs between two cores in the same module that share the L2 cache. Еще меньше накладные расходы, понесенные при передаче данных происходит между двумя ядрами в том же модуле, которые разделяют кэш-памяти L2.

The WCC also acts as a write buffer for the write combining buffer (WCB) for streaming loads and write combine memory type. ВКК также выступает в качестве буфера записи для записи сочетания буфера (ДСП) для потоковой нагрузки и писать объединить типа памяти. This can have other implications on the memory ordering requirement by the AMD64 execution model, which we will not touch upon here. Это может иметь и другие последствия для памяти заказа требование AMD64 модель исполнения, которые мы не будем касаться здесь.

Bulldozer seems to have less write-combining resource per core for streaming stores and write combining memory type than K10. Бульдозер, кажется, менее записи объединения ресурсов на каждое ядро ??для потокового магазинов и писать сочетания типа памяти, чем K10. Performance "caveat" was mentioned for streaming store instructions in Section 6.5 of the software optimization guide, where writing >1 streams of data with streaming stores results in much less performance compared with K10. Спектакль "оговоркой" было отмечено для потокового магазин инструкциям в разделе 6.5 из Руководство по оптимизации программного обеспечения, где Дать> 1 потоков данных с потоковыми сохраняет результаты в гораздо меньшей производительности по сравнению с K10. It appears, although unclear, that Bulldozer has a (single?) 64-byte 4-entry (sharing the 64 bytes? each having 64 bytes?) write combining buffer (per core?) . Оказывается, хотя неясно, что бульдозер (один?) 64-байт 4-вход (обмен 64 байт? Каждая из которых имеет 64 байт?) Написать объединения буфера (в пересчете на ядро?). K10 and even the later K8 revisions have 4 independent 64-byte WCBs per core. K10 и даже позже K8 изменения имеют 4 независимых 64-байт WCBS на каждое ядро. One explanation is that modern processors have more cores and less reasons to store multiple independent data streams per core. Одним из объяснений является то, что современные процессоры имеют более ядер и меньше причин для хранения нескольких независимых потоков данных на каждое ядро. With only one stream of streaming stores, the performance in Bulldozer is still comparable to that in K10. Что только один поток потокового магазинов, производительность бульдозера по-прежнему сравнимы с, что в K10.

On the other hand, by beefing up the write-combining resource for write-back & temporal stores with the WCC, common memory writes are made much more efficient. С другой стороны, укрепляя записи объединения ресурсов для обратной записи и временные магазины с ВСЦ, общая память пишет сделаны гораздо более эффективным. Make the common case fast -- a rule of thumb in microarchitecture design! Сделать общий быстро случае - правило в микроархитектуре дизайн!
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Trump

 

Сообщение Trump » 13 апр 2011, 18:11

First look at AMD Family 15h (Bulldozer) Software Optimization Guide

Opium
Когда ЭТОТ Чудо-трактор уже появится???

В Июле вроде, хотя чуда уже не ждут...

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 13 апр 2011, 18:20

Стоит пояснить, в бульдозере теперь два ядра могут работать с приложением. Эти ядра мо мощности равны ядрам К10. Производительность должна вырасти почти в 2, при полной оптимизации. Выравненной нагрузке.

Добавлено через 41 секунду:
Trump писал(а):First look at AMD Family 15h (Bulldozer) Software Optimization Guide

Opium
Когда ЭТОТ Чудо-трактор уже появится???

В Июле вроде, хотя чуда уже не ждут...



Вам то какая разница? Вы многие даже купить тубана не можете, а многие и санди. :lol:

Добавлено через 49 секунд:
Ядра должны работать синхронно, одно должно пополнять задачами второе. Второе ядро получается работает на подаче.
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Trump

 

Сообщение Trump » 13 апр 2011, 18:22

Opteron 2xxx
Стоит пояснить, в бульдозере теперь два ядра могут работать с приложением. Эти ядра мо мощности равны ядрам К10. Производительность должна вырасти почти в 2, при полной оптимизации. Выравненной нагрузке.

Почти в два раза по срвнению с чем? С 2-х ядерником AMD?

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 13 апр 2011, 18:26

мое мнение что ядра там работают синхронно. У к10 ядра не обменивались готовыми данными.

Добавлено через 2 минуты 23 секунды:
Trump писал(а):Opteron 2xxx
Стоит пояснить, в бульдозере теперь два ядра могут работать с приложением. Эти ядра мо мощности равны ядрам К10. Производительность должна вырасти почти в 2, при полной оптимизации. Выравненной нагрузке.

Почти в два раза по срвнению с чем? С 2-х ядерником AMD?


У амд к10 ядра почти никогда на 100% не грузились. Производительность вырастет вдвое там, где нагрузка была только на ядро. Например работа 1С 77

Добавлено через 49 секунд:
Щас куча планировщиков, которые нагружаю на 100% ядра

Добавлено через 1 минуту 57 секунд:
Выборки команд и ветвящиеся значительно улучшены в бульдозер. A more sophisticated conditional branch prediction is employed, utilizing a local predictor, a global predictor and a tournament selector. Более сложные условные предсказания ветвлений работает, используя местные предиктор, глобального предиктора и турнир селектора. The branch target buffer (BTB) is increased to 2.5+ times larger. Буфер адреса перехода (BTB) увеличивается до 2,5 + раза больше.

Выборка и нагрузка увеличится. результат кое где вырастет до 2,5 раза. Это програмы которые не были оптимизированы про многоядерность

Добавлено через 1 минуту 48 секунд:
Амд щас в многопотоке в принцыпе не особо и проигрует. У них 6 ядер. В приложениях где участвуют не все ядра, конечно же интел победит. Что ту непонятно
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Trump

 

Сообщение Trump » 13 апр 2011, 18:35

Opteron 2xxx
мое мнение что ядра там работают синхронно. У к10 ядра не обменивались готовыми данными.

У амд к10 ядра почти никогда на 100% не грузились. Производительность вырастет вдвое там, где нагрузка была только на ядро. Например работа 1С 77

Ты же не разбираешься в процессорах. Как всегда написал свои фантазии...

Аватара пользователя
Opteron 2xxx
Штатный мерзавец
 
Сообщения: 6275
Зарегистрирован:
12 авг 2009, 21:59
Благодарил (а): 3 раз.
Поблагодарили: 45 раз.
Блог: Просмотр блога (1)

Сообщение Opteron 2xxx » 13 апр 2011, 18:36

Трамп считать я умею
Самое главное это результаты в тестах. А они везде вырастут.
2,5 для тех тестов где загрузка были плохой. До 25% в тестах которые были оптимизарованы под многоядерность

Добавлено через 1 минуту 18 секунд:
Если задачу выполняет два ядра, то логически надо сложить производительность

Добавлено через 50 секунд:
25% на ядро, +50% на два ядра если задача однопоточка
50*4=200% на все ядра
Про оверклокерс http://www.youtube.com/watch?v=FvhpVofHUww
Интельщики - педостахановцы (разгон до утренних пятухов)
Настоящие фанаты АМД, никогда не сдаются http://www.youtube.com/watch?v=v8KUCl9lFFk
Те кто не помогал АМД http://www.youtube.com/watch?v=BXq2Owuk ... re=related
Фанаты интела получа Пи http://www.youtube.com/watch?v=TGqLVaJW ... re=related

Opium

 

Сообщение Opium » 13 апр 2011, 18:38

Opteron 2xxx писал(а):Если задачу выполняет два ядра, то логически надо сложить производительность

Максимум на 40%

Пред.След.

Вернуться в Бои без правил

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 4

cron